Projet final

Louis-Gabriel Pouillot - MSIA

Sommaire

I - Acquisition et chargement des données

  • Récupération des fichiers Excel avec les classements
  • Mise en place d'une copie locale des fichiers Excel afin de ne pas les recharger à chaque run.
  • Vers la fin de la course le format des fichiers Excel change avec les arrivées des voiliers : il est possible de s'arrêter juste avant.
  • Extraction des caractéristiques techniques de chacun des voiliers.

 Etape 1

L'appel à la commande get_excel_files.xlsx ne fait rien si le répertoire results/ existe déjà. Il est crée lors du 1er téléchargement des fichiers

 Etape 2

Etape 3 - infos techniques

Traitement manuel de la page web https://www.vendeeglobe.org/fr/classement pour récupérer l'info sur les foils et le classement final

Ajout des informations directement dans le dataframe 'df'

Description des données présentes dans le dataframe

Nous avons maintenant un dataframe complet avec toutes nos données.

 Fichiers inclus/exclus

J'ai pris l'option proposée de ne pas intégrer les fichiers vers la fin de la course. Les fichiers après le 20210127_170000 ne sont pas intégrés au dataframe, ni le premier qui ne contenait aucune données.

 Classement général et classement final

Concernant les classements il y a 25 positions à l'arrivée (variable 'Classement final') sur 33 concurrents au départ. Les 33 positions apparaissent dans la variable 'Classement'

La position 34 (dans le 'Classement final') représente les abandons et apparaît dans certains graphes.

Mapping quilles et dérives (foils)

Nous avons crée 2 mappings de données catégorielles pour les dérives et les quilles. Nous avons aussi une colonne 'Foil' qui distingue simplement la présence (1) ou l'absence de foil (0) sans distinction de type de dérive.

Les quilles et dérives en fonction des matériaux sont regroupés comme ci-après:

Mapping des dérives :
0: '2'
1: '2 asymétriques'
2: 'foiler'
3: 'foils'

Mapping des quilles:
0: 'NC'
1: 'acier'
2: 'acier forgé'
3: 'acier mécano soudé'
4: 'basculante avec vérin'
5: 'basculante sur vérin hydraulique'
6: 'carbone'
7: 'inox usiné'
8: 'monotype'

 Coordonnées

La coordonnées sont converties au format décimal et disponibles dans les 2 formats.

Fichier de resultats

Le fichier d'où est extrait la donnée apparait sous forme de pattern DATE_HEURE dans le colonne 'Fichier de resultats'

 Synthèse

Nous montrons ci-dessous un exemple d'enregistrement et les informations DTypes.

Contrôle d'une donnée et des Dtypes

(Retour Sommaire)

II- Analyse des données

Repérage sur les données et mise en évidence de quelques caractéristiques facilement observables

On affiche plusieurs pairplot pour visualiser des indices de causalité ou des corrélations

On note que les foils sont présents ces dernières années

La surface de près pourrait avoir une influence. Piste pour une régression linéaire.

Au même titre que le poids et les type de quille ont évolué.

Les bateaux plus légers gagne mieux.

De même que certains types de quilles en acier et acier forgé.

Mapping des quilles:
0: 'NC'
1: 'acier'
2: 'acier forgé'
3: 'acier mécano soudé'
4: 'basculante avec vérin'
5: 'basculante sur vérin hydraulique'
6: 'carbone'
7: 'inox usiné'
8: 'monotype'

 II-A- Analyse de l'influence de la présence d'un foil

On va observer que le foil présente des avantages et des inconvénients quant à l'effet sur le classement.

Les foils sont un équipement assez récent (voir graphe) Sur bateuax élgers

Présence d'un foil et classement à l 'arrivée

Tout d'abord nous analysons le classement à l'arrivée des bateaux avec et sans foil.

On observe dans le graphe ci-dessus que les bateaux avec foil semblent présenter un avantage. L'ensemble des 12 concurrents disposant de foils arrivent parmis les 17 premiers, laissant 7 concurrents sans foil derrière eux. Les 3 premiers sont équipés de foils. Ce qui pourrait laisser croire à un net avantage des bateaux avec foils.

Il faut toutefois noter que le nom d'abandons des bateaux avec foil est très élevés (7 contre 1 pour les bateaux "classiques") tel que l'illustre les requêtes ci-après:

 Présence de foil sur quels bateaux ?

Graphe Foil par Année de lancement

On note que les foils sont pésents sur les bateaux à partir de 2007. Il n'y a pas de bateaux sans foils après 2012.

 Vitesses / Classement général

On observe que la vitesse est globalement plus élevées pour les bateaux avec foils tel qu'illustré dans les 2 séries de graphes ci-après.

La série de deux graphes ci-dessous affichent la moyenne de la vitesse des 10 premiers bateaux disposant de foil et des 10 premiers sans foil sur les dernières 24h et en moyenne glissante sur 5 jours.

On remarque que la courbe bleue est sensiblement au-dessus en moyenne et très nettement sur 5 jours glissants.

Sur ce deuxième graphique on visualise la densité de relevés de VMG par rapport à la position au classement général sur 24h

On remarque la pente négative de la droite de régression qu'on pourrait tracer sur ces données.

(Retour Sommaire)

Timeseries

L'évolution du classement général des 5 premiers skippers

La vitesse (VMG 24h) sur 7 jours glissants pour les 3 premiers concurrents

On note des décalages de phase très nets pour des configurations de bateaux très similaires. Le décalage et l'amplitude sont certainement dues à des facteurs de vents et décision de routes.

L'évolution du classement général des skippers contraints à l'abandon

Ce graphe affiche les positions au classement des 8 skippers contraint à l'abandon

Comparaison des distances aprcourues

Visualisation de la distance du 1er et des concurrents ayant abandonné.

On voit que certains ont abandonné mais étaient dans la moyenne temps/distances parcourues. Seuls Amadeo et Destremeau ont abandonné avec un gros écart.

(Retour Sommaire)

Régression linéaire

(Retour Sommaire)

PCA

(Retour Sommaire)

Cartographie

Pour visualiser les trajectoires des concureents nous avons établi les cartographie suivantes.

Route des 5 gagnants

Dans la première cartographie ci-dessous nous affichons les routes des 5 premiers arrivés.

Routes des concurrents contraints à l'abandon

La cartograhie suivante montre les routes interrompues des concurrents contraints à l'abandon.

Un élément intéressant à noter, cette carto permet de visualiser que 6 des 8 concurrents ayant abandonné, y ont été contraints juste avant le Cap de Bonne Espérance dans l'Atlantique Sud. Il s'agissait d'ailleurs de bateaux avec des foils. Le 7ème abandon avec foil est celui de Isabelle Joschke après le passage du Horn, là encore dans l'Atlantique Sud. 100% d'abandon des bateaux ayant un foil a eu lieu dans l'Atlantique Sud. Nous n'irons pas jusqu'à en tirer des conclusions. Peut-être est-ce dû à des conditions météorologiques (voir la partie ouverture dans la Conclusion

Sébastien Destremau qui n'avait pas de foil s'est arrêté en Nouvelle Zélande.

Correction à apporter sur l'affichage de la carte:

(Retour Sommaire)

Conclusion

Quand on vient de terminer La Longue Route de Bernard Moitessier on se rend compte des progrès en matière de navigation.

Le sujet du projet est vraiment intéressant. Cela a été un plaisir de travailler sur ces données. Beaucoup de travail de découverte et d'exploration de pandas, des lib graphiques. Nous espérons que cela vous aura plus.

J'ai utilisé le nous par convention.

 Ouverture

Nous avons envisagé d'inclure des données météorologiques. Il arurait été intérressant de corréler les classements avec des informations de directions des vents, de houle et de déterminer les routes optimales en fonction des conditions de vents, dépressions ou anticyclones.

Cela aurait pu expliquer les phénomènes de casse des bateaux avec foils notamment au sortir de l'Atlantique avant le cap de Bonne Espérance.

Les données de la Nasa sont une bonne source d'information. Nous y avons trouvé des informations sur la directions des vents chaque heure en fonction des coordonnées.

Les points d'entrée de data météorologiques ci-dessous correspondant au dernier enregistrement de position de Isabelle Joschke (Date Abandon : 2021-01-09 21:23:00):

Il serait facile d'obtenir pour chaque concurrent les détails à chaque coordonnées enregistrées.